過去曾經有個震驚世界的圍棋對局,AlphaGo擊敗韓籍世界圍棋冠軍李世乭,而背後就是賴於深度強化式學習,所以今天就要跟大家介紹「強化式學習(Reinforcement Learning,簡稱RL)」明天則是介紹「深度強化式學習」(Deep Reinforcement Learning,簡稱DRL)。
強化式學習之所以可以達成這要驚人的成果,有四個非常重要的名詞
流程是這樣的:強化學習會有一個代理人(agent),他會在環境(environment)裡做動作(action)並且學習,學習完後環境(environment)會回傳資訊給代理人(agent),資訊就是上面提到的狀態(state)或是獎勵(reward)
我們拿自動駕駛舉例,設定車輛中的電腦(代理人,agent)要能夠正確地在道路上行走並且可以遵守交通規則。在這個範例中,環境(environment)指的是主體之外的所有事物—比如交通狀況、附近的車輛、行人等等。訓練過程中,代理人使用從各種感測器如攝影機、GPS去讀取資料並產生駕駛、煞車、與加速指令(動作,action)。主體會不斷反覆地嘗一連串的動作,而正確的動作會得到相對應的獎勵(reward)。例如:每往前10公尺加10分(當然如果闖紅燈也可以給予負向獎勵,例如:扣10分)經過訓練之後,車輛上的電腦應該只要使用調整過的策略和感測器資料便能進行自動駕駛。
今日總複習:強化式學習四個非常重要的名詞代理人(agent)、動作(action)、環境(environment)、狀態(state)或是獎勵(reward)。電腦透過一系列動作在環境中不斷互動,來學習正確地執行一項任務。
明天會跟大家介紹深度強化式學習,別錯過了喔!